데이터분석 준전문가 랜덤

데이터 이해


1. 다음 중 빅데이터 위기 요인과 통제 방안에 대한 내용과 관련이 없는 것은?
  • 1
     사생활 침해
  • 2
     데이터의 오용
  • 3
     데이터 변화 관리
  • 4
     책임 원칙의 훼손

2. 다음 중 빅데이터 분석의 특징에 대한 설명으로 옳지 않은 것은?
  • 1
     데이터가 방대하다고 무조건 더 좋은 가치를 창출하는 것은 아니다.
  • 2
     데이터 크기가 커질수록 더 많은 분석을 수행하는 것이 경쟁 우위 확보의 원천이다.
  • 3
     분석적 방법과 성과에 대한 이해 부족은 빅데이터 과제에 대한 걸림돌이다
  • 4
     비즈니스의 핵심에 더욱 객관적이고 통찰력 있는 데이터를 추출하는 것이 중요하다.

3. 다양한 유형의 데이터를 다루는 통계학과 마이닝을 넘어서는 학문, 데이터 공학, 수학, 통계학, 컴퓨터 공학 등 해당 분야의 전문 지식을 종합한 학문은?

4. 데이터베이스의 진행 절차를 올바른 순서대로 나열한 것은?
  • 1
     통합 - 저장 - 공유 - 변화
  • 2
     저장 - 통합 - 변화 - 공유
  • 3
     공유 - 저장 - 통합 - 변화
  • 4
     변화 - 통합 - 저장 - 공유

5. 지도 학습은 입력과 출력 모두 주어진 상태에서의 학습이며, 비지도 학습은 입력만 주어진 상태에서의 학습이다. 다음의 보기에서 그 종류가 다른 것은 무엇인가?
가. 회귀 분석
나. 군집 분석
다. 감정 분석
라. 분류 분석
  • 1
     가
  • 2
     나
  • 3
     다
  • 4
     라

6. 빅데이터의 사생활침해 해결방법은?
  • 1
     제공자 동의에서 사용자 책임으로 전환한다
  • 2
     데이터 수집 범위를 제한한다
  • 3
     개인정보 비식별화를 강화한다
  • 4
     데이터 보안 시스템을 구축한다

7. 데이터웨어하우스에 대한 설명으로 가장 적절하지 않은 것은 무엇인가?
  • 1
     ETL은 주기적으로 내부 및 외부 데이터베이스로부터 정보를 추출하고 정해진 규약에 따라 정보를 변환한 후에 데이터웨어하우스에 정보를 적재한다.
  • 2
     데이터웨어하우스는 전사적 차원보다는 특정 조직의 특정 업무 분야에 초점을 둔 것이다.
  • 3
     데이터웨어하우스에서 관리하는 데이터들은 시간적 흐름에 따라 변화하는 값을 유지한다.
  • 4
     데이터웨어하우스는 기업 내의 의사결정 지원 애플리케이션을 위한 정보를 제공하는 하나의 통합된 데이터 저장 공간을 말한다.

8. 다음 중 데이터 사이언티스트에게 요구되는 하드 스킬로 알맞은 것은?
  • 1
     데이터 분석 기술
  • 2
     시각화를 활용한 설득력
  • 3
     커뮤니케이션 기술
  • 4
     창의적 사고

9. 데이터 분석 알고리즘으로 부당한 피해를 보는 사람을 방지하기 위해서 생겨난 직업으로 데이터 분석 알고리즘으로 인해 피해를 입은 사람을 구제하는 전문가를 무엇이라 하는가?
  • 1
     데이터 엔지니어
  • 2
     알고리즈미스트
  • 3
     데이터 사이언티스트
  • 4
     데이터 분석가

10. 다음은 무엇에 대한 설명인가
구글의 인터넷에 연결된 네스트는 날씨와 기온 정보 그리고 집주인의 평소 온도 설정 data를 기반으로 사용자의 context를 인식해 자동으로 온도를 설정해 주며, 아마존의 dash라는 작은 장치는 wifi가 내장된 바코드 인식기로 상품에 인쇄된 바코드를 dash로 비추게되면 그 상품을 아마존 장바구니에 저장할 수 있도록 해준다. 나이키의 경우 애플과 제휴하여 스마트한 운동관리를 할 수 있도록 해주는 서비스로 자리 매김했다. 굳이 우리가 기계를 조작하지 않아도 모든 것이 사람을 위해 알아서 자동으로 돌아가는 세상이 이것이 보여줄 미래이다.

데이터분석 기획


11. 다음 중 빅데이터 분석 방법론의 분석 기획 단계에서 프로젝트 위험 계획 수립 시 위험에 대한 대응 방법의 종류에 포함되지 않는 것은?
  • 1
     회피(Avoid)
  • 2
     수용(Accept)
  • 3
     완화(Mitigate)
  • 4
     관리(Management)

12. 다음은 데이터 거버넌스 중 무엇에 관한 설명인가?
데이터의 표준용어 설정, 명명규칙 수립, 메타 데이터 구축, 데이터 사전 구축
  • 1
     데이터 표준화
  • 2
     표준화 활동
  • 3
     데이터 저장 관리
  • 4
     데이터 관리 체계

13. 분석 마스터플랜 수립 시 우선 순위 고려사항에 해당하지 않는 것은?
  • 1
     전략적 중요도
  • 2
     비즈니스 성과 및 ROI
  • 3
     실행 용이성
  • 4
     데이터 필요 우선 순위

14. 분석 기회 발굴의 범위 확장에서 '거시적 관점'이 아닌 것은?
  • 1
     사회, 기술
  • 2
     경제
  • 3
     환경, 정치
  • 4
     고객

15. 분석 마스터 플랜에 대한 내용으로 틀린 것은?
  • 1
     전체 과정을 순환적이고 반복적인 단계로 작성한다.
  • 2
     분석 과제의 적용 범위 및 방식에 대해서도 종합적으로 고려하여 결정한다.
  • 3
     일반적인 IT 프로젝트의 우선순위로는 전략적 중요도와 실행 용이성이 있다.
  • 4
     분석 마스터 플랜의 순서는 중장기 마스터 플랜 수립- 단기적인 세부 이행계획 수립- 과제 별 우선순위 설정 순서이다.

16. CRISP-DM에 대한 내용으로 올바른 것은?
가. 데이터 이해에서 데이터 준비 단계로 갈 수 있다.
나. 모델링 단계에서 학습용/테스트용 데이터를 사용해 과소 적합을 확인한다.
다. 비즈니스 이해, 데이터 이해 간 피드백이 가능하다.
라. 평가에서 적합하면 바로 프로젝트 투입이 가능하다.
  • 1
     가, 라
  • 2
     가, 나, 라
  • 3
     가, 나, 다
  • 4
     나, 라

17. 다음 중 분석 프로젝트의 영역별 주요 관리 항목으로 옳지 않은 것은?
  • 1
     시간(Time)
  • 2
     관계(Relationship)
  • 3
     범위(Scope)
  • 4
     원가(Cost)

18. 아래에서 설명한 데이터 분석 조직 구조는?
- 전사 분석업무를 별도의 분석 전담 조직에서 담당
- 전략적 중요도에 따라 분석 조직이 우선 순위를 정해서 진행 가능
- 현업 업무부서의 분석 업무와 이중화/이원화 가능성 높음
  • 1
     집중 구조
  • 2
     기능 구조
  • 3
     확산 구조
  • 4
     분산 구조

19. 다음 중 분석 대상은 명확하지만 분석 방식이 명확하지 않은 경우 수행하는 분석 주제의 유형은 무엇인가?
  • 1
     솔루션(Solution)
  • 2
     통찰(Insight)
  • 3
     최적화(Optimization)
  • 4
     발견(Discovery)

20. 다음 중 빅데이터의 4V 중 ROI관점에서 효과(Return)에 해당하는 요소는?
  • 1
     가치(Value)
  • 2
     양(Volume)
  • 3
     속도(Velocity)
  • 4
     다양성(Variety)

데이터분석


21. 다음이 설명하는 이산형 확률 분포는 무엇인가?
"단위 시간이나 단위 공간에서 어떤 사건이 몇 번 발생할 것인지 표현하는 분포로 특정 기간 동안 사건 발생의 확률을 구할 때 사용된다"

22. 다음이 설명하는 시계열 모형은 무엇인가?
"자기 자신의 과거자료로 설명하는 모형으로 백색잡음의 현재값과 자기자신의 과거값의 가중합으로 선형성을 표현하는 정상시계열 모형이다."
  • 1
     MA 모형
  • 2
     AR 모형
  • 3
     의사결정나무
  • 4
     인공신경망

23. 아래의 불순도 측정 결과를 사용해서 구한 지니 지수는 얼마인가?
●●◆●●
  • 1
     0.5
  • 2
     0.32
  • 3
     0.48
  • 4
     0.38

24. 여러 개의 앙상블 모형 중 붓스트랩 표본을 구성하는 재표본 과정에서 분류가 잘못된 데이터에 더 큰 가중치를 주어 표본을 추출하는 기법은?

25. 시계열 모형의 여러 종류 중 아래에서 설명하는 것은 무엇인가?
가) 시계열 모델 중 자기 자신의 과거 값을 사용하여 설명하는 모형
나) 백색 잡음의 현재 값과 자기 자신의 과거 값의 선형 가중합으로 이루어진 정상 확률 모형
다) 모형에 사용하는 시계열 자료의 시점에 따라 1차, 2차, ----, p차 등을 사용하나 정상 시계열 모형에서는 주로 1,2차를 사용함.

26. 다음 Wage 데이터의 wage변수에 대한 t검정 결과에 대한 해석으로 옳지 않은 것은?
  • 1
     자유도(degree of freedom)은 2999이다.
  • 2
     유의수준 0.05일 때 귀무가설은 기각되지 않는다.
  • 3
     대립 가설은 'wage의 평균은 100과 같지 않다'이다.
  • 4
     95% 신뢰구간에 점추정 값이 포함되어 있다.

27. 다음 중 비모수 검정의 종류가 아닌 것은?
  • 1
     Runs Test
  • 2
     카이제곱검정
  • 3
     Wilcoxon Signed Rank Test
  • 4
     Sign Test

28. 다음 중 회귀분석의 결정 계수에 관한 설명으로 적절하지 않은 것은 무엇인가?
  • 1
     결정 계수는 회귀제곱합(SSR) / 총제곱합(SST) 로 구할 수 있다.
  • 2
     종속변수와 독립변수 사이의 표본 상관계수와 값이 같다.
  • 3
     결정계수가 커질수록 회귀방정식의 설명력이 높다고 할 수 있다.
  • 4
     일반적으로 결정 계수는 0~1의 값을 갖는다.

29. 어느 마트에서 A제품과 B제품을 판매하고 있다. A제품-> B제품의 지지도는 0.3이고, 신뢰도가 0.6이다. A제품과 B제품의 판매 수량이 동일할 때, 향상도를 구하시오.

30. 데이터마이닝을 위한 데이터 분할과 관련된 설명 중 알맞지 않은 것은?
  • 1
     데이터는 학습용, 검증용, 평가용 데이터로 분할하여 사용할 수 있다.
  • 2
     검증용 데이터(validation data)는 학습과정에서 사용되지 않는다.
  • 3
     검증용 데이터는 훈련에 사용되지 않는다.
  • 4
     데이터 수가 적을 때는 교차 검증을 사용한다.

31. 여러 분포가 확률적으로 선형 결합된 형태로, 데이터가 k개의 모수적 모형의 가중합으로 표현되는 모집단 모형에서 나왔다는 가정하에, 추정된 k개의 모형 중 어느 모형으로부터 나왔을 확률이 높은지에 따라 군집 분류를 수행하는 것은 무엇인가?
  • 1
     평균연결법
  • 2
     혼합분포군집
  • 3
     SOM
  • 4
     DBSCAN

32. 다음 시계열 자료의 정상성(Stationary)에 대한 설명 중 가장 부적절한 것은?
  • 1
     모든 시점에 대해 일정한 평균을 가진다.
  • 2
     모든 시점에 대해 일정한 분산을 가진다.
  • 3
     공분산은 단지 시차에만 의존하고 시점 자체에는 의존하지 않는다.
  • 4
     데이터에 포함된 잡음은 독립성을 갖는다.

33. 과대 적합에 대한 설명으로 가장 부적절한 것은?
  • 1
     생성된 모델이 훈련 데이터에 너무 최적화되어 학습하여 테스트데이터의 작은 변화에 민감하게 반응하는 경우는 발생하지 않는다.
  • 2
     학습 데이터가 모집단의 특성을 충분히 설명하지 못할 때 자주 발생한다.
  • 3
     변수가 너무 많아 모형이 복잡할 때 생긴다.
  • 4
     과대 적합이 발생할 것으로 예상되면 학습을 종료하고 업데이트 하는 과정을 반복해 과대 적합을 방지 할 수 있다.

34. ARMA(2, 0)에 대한 설명으로 올바른 것은 무엇인가?
  • 1
     정상시계열이 되기 위해 2차 차분이 필요하다.
  • 2
     PACF는 3차항부터 절단 형태가 되고 ACF는 지수적으로 감소한다.
  • 3
     ARMA(2,0)은 MA(2)와 같은 모형이라고 할 수 있다.
  • 4
     ARMA(2,0)은 비정상 시계열이어서 차분 처리 후, 분석 용도로 사용할 수 없다.

35. 표본 추출시 발생하는 오차에 관한 설명 중 잘못된 설명은?
  • 1
     표본 오차(Sampling error)는 모집단의 일부인 표본에서 얻은 자료를 통해 모집단 전체의 특성을 추론함으로써 생기는 오차를 의미한다
  • 2
     비표본 오차(non-sampling error)는 표본 크기가 증가함에 따라 증가한다.
  • 3
     표본 편의(Sampling bias)는 표본 추출방법에서 기인하는 오차를 의미하고, 표본 추출 방법에 의해 최소화하거나 없앨 수 있다.
  • 4
     표본 오차는 표본의 크기를 증가시키고, 표본 선택 방법을 엄격히 하여 줄일 수 있다.

36. 모분산 추정에 대한 설명으로 옳지 않은 것은 무엇인가
  • 1
     모집단의 변동성 또는 퍼짐의 정도에 관심이 있는 경우, 모분산이 추론의 대상이 된다.
  • 2
     N개 집단에 대한 분산 검정은 자유도가 N-1인 카이제곱검정을 따른다.
  • 3
     모집단이 정규 분포를 따르지 않더라도 중심 극한 정리를 통해 정규모집단으로 부터의 모 분산에 대한 검정을 유사하게 시행할 수 있다.
  • 4
     이표본(Two sample)에 의한 분산비 검정은 두 표본의 분산이 동일한지를 비교하는 검정으로 검정통계량은 F분포를 따른다.

37. ROC Curve의 이상적 완벽 분류모형의 X축과 Y축 가장 적절한 것은? 단(X값,Y값)
  • 1
     (0,0)
  • 2
     (0,1)
  • 3
     (1,0)
  • 4
     (1,1)

38. 777개 대학을 대상으로 졸업률이 비용과 관련 있는가를 회귀 분석한 결과이다. 잘못 해석한 것은 무엇인가? 등록금(Outstate), 기숙사 비용(Room.board), 개인비용지출(Personal)
  • 1
     등록금이 높아지면 졸업률이 높아진다
  • 2
     개인비용지출이 노파지면 졸업률이 낮아진다.
  • 3
     비용과 졸업률 사이의 인과관계를 확인 할 수 있다.
  • 4
     모든 변수의 회귀 계수는 유의미하다.

39. 상관계수에 대한 설명으로 옳지 않은 것은?
  • 1
     피어슨 상관계수는 두 변수 간의 선형적인 관계의 강도를 측정한다.
  • 2
     피어슨 상관계수는 두 변수의 원래 값을 사용하여 계산된다.
  • 3
     스피어만 상관계수는 모수적 관계에서 두 변수 간의 단조적인 관계의 강도를 측정한다.
  • 4
     피어슨 상관계수가 0이면 선형관계가 없다.

40. 다음 설명 중 연관 규칙의 단점이 아닌 것은?
  • 1
     분석 품목 수가 증가하면 분석 계산이 기하급수적으로 증가한다.
  • 2
     너무 세분화된 품목을 가지고 연관 규칙을 찾으려면 의미 없는 분석 결과가 도출된다.
  • 3
     품목 간에 구체적으로 어떤 영향을 주는지 해석하기 어렵다.
  • 4
     상대적 거래량이 적으면 규칙 발견 시 제외되기 쉽다.

41. 어떤 슈퍼마켓 고객 6명의 장바구니 별 구입 품목이 다음과 같다고 한다면, 연관 규칙(콜라→맥주)의 지지도는?
  • 1
     0.6
  • 2
     0.4
  • 3
     0.5
  • 4
     0.3

42. Credit 데이터는 400명의 신용카드 고객에 대한 신용카드와 관련된 변수들이 포함되어 있다. 아래 변수 간의 산점도와 피어슨 상관계수를 나타내고 있다. 그림에 대한 설명 중 가장 부적절 한 것은?
  • 1
     가장 상관관계가 높은 두 변수는 Limit와 Balance이다.
  • 2
     모든 상관관계가 양의 상관관계를 보인다.
  • 3
     Balance와 가장 상관관계가 높은 변수는 Income이다.
  • 4
     Age와 Balance는 매우 낮은 상관관계를 보인다.

43. 다음이 설명하는 데이터마이닝의 모형평가 방법은 무엇인가.
원천 데이터를 랜덤하게 두 분류로 분리하여 교차 검정을 실시하는 방법으로 하나는 모형 학습 및 구축을 위한 훈련용 자료로 다른 하나는 성과 평가를 위한 검증용 자료로 사용하는 방법이다.

44. 우등반에 들어가기 위해서는 어느 시험에서 상위 2% 안에 들어야 한다. 해당 시험 점수의 평균이 85점이고 표준편차가 5일 때, 우등반에 들어가기 위한 최소 시험 점수는? (단, P(Z

45. 분해시계열의 요인으로 알맞지 않은 것은?
  • 1
     추세 요인
  • 2
     계절 요인
  • 3
     환경 요인
  • 4
     순환 요인

46. 시계열 분석에 대한 내용으로 적절한 것은?
  • 1
     AR모형은 과거 q시점 이전 오차들에서 현재 항의 상태를 추론한다.
  • 2
     지수 평활법은 이동 평균법의 종류로 특정 기간 안에 속하는 모든 관측치에 대해 동일한 가중치를 부여한다.
  • 3
     일반적으로 평균이 일정하지 않은 비정상 시계열은 변환을 통해, 분산이 일정하지 않은 비정상 시계열은 차분을 통해 정상 시계열로 바꾼다.
  • 4
     AR 모형과 MA 모형은 둘 다 정상성(stationary)을 만족하는 정상 시계열 모형이다.

47. 붓스트랩을 통해 한 샘플이 뽑힐 확률이 1/d라고 했을 때, 샘플 추출을 d번 진행하였을 대 어떤 샘플이 한 번도 뽑히지 않을 확률은?
  • 1
     (1- 1/d)²
  • 2
     (1 + d)²
  • 3
     (1- 1/d)ᵈ
  • 4
     √1-1/d

48. 다음 중 K-Fold 교차검증에 대한 내용으로 옳지 않은 것은?
  • 1
     K=2인 경우, LOOCV라고 한다.
  • 2
     주어진 데이터를 가지고 K번 반복적으로 성과를 측정해 그 결과를 평균한다.
  • 3
     K-Fold는 데이터를 K개로 분할하는 것을 의미한다.
  • 4
     데이터가 충분하지 않은 경우 주로 사용한다.

49. 파생 변수에 대한 설명으로 옳지 않은 것은?
  • 1
     요약 통계량을 이용한 변수 생성을 통해 데이터 분석이 가능하다.
  • 2
     데이터에 포함된 나이 연속형 변수를 이용해 연령대 범주형 파생 변수를 추가했다.
  • 3
     파생 변수를 해당 데이터셋을 대표하는 변수로 사용할 수 있다.
  • 4
     파생 변수는 매우 주관적일 수 있으므로, 논리적 타당성을 갖추어 개발해야 한다.

50. 다음 설명에 해당되는 앙상블 기법은?
여러 개의 붓스트랩 자료를 생성하고 각 붓스트랩 자료에 예측 모형을 만든 후 결합하여 최종 예측 모형을 만드는 방법.
  • 1
     배깅(Bagging)
  • 2
     Voting
  • 3
     부스팅(Boosting)
  • 4
     Stacking

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
채점하기
hide
reset
타이머

모든 문제들의 저작권은 원저작권자에게 있습니다. 본 사이트는 웹상에 공개되어 있는 문제만 모아서 보여드립니다.
저작권 안내   데이터 보호 안내   제휴 문의

copyright 2026 뉴비티::새로운 CBT 시스템 - newbt.kr